machine learning 2장 간단한 분류 알고리즘 훈련 b. 가중치를 업데이트(n은 학습률, y(i)는 i번째 훈련 샘플의 진짜 클래스 레이블) ☑️ 클래스 레이블을 두 개의 정수 클래스 1(verisicollor)와 -1(setosa)로 바꾼 후 벡터 y에 저장 ☑️ 100개의 훈련 샘플에서 첫 번째 특성 열(꽃받침 길이)과 세 번째 특성 열(꽃잎 길이)을 추출하여 특성 행렬 x에 저장 ☑️ 붓꽃 데이터셋에서 추출한 일부 데이터에서 퍼셉트론 알... machine learningmachine learning [머신러닝] Supervised Learning , Unsupervised Learning ( 지도 학습, 비 지도 학습 ) 지도 학습 ( Supervised Learning ) 비 지도 학습 ( Unsupervised Learning ) Predictive Learning 으로도 불리는 지도 학습은 Training set 으로 입출력의 쌍을 받습니다. 즉, input으로 들어오는 feature vector와 output으로 나가는 class 혹은 label을 Training set으로 받습니다. Training ... machine learning머신러닝지도 학습비 지도 학습machine learning 1장 컴퓨터는 데이터에서 배운다 머신러닝 : 데이터에서 지식을 효율적으로 추출하여 예측 모델과 데이터 기반의 의사 결정 성능을 향상시킴 (사람이 수동으로 대량의 데이터를 분석하여 규칙을 유도하여 모델을 만들지 ❌) 레이블된 데이터, 직접 피드백, 출력 및 미래 예측 1.2.1 지도 학습으로 미래 예측 지도 : 희망하는 출력 신호(레이블)가 있는 일련의 샘플(데이터 입력) ex) 스팸 또는 스팸이 아닌 이메일로 정확하게 표시... machine learningmachine learning 두 점 사이의 거리 공식 본 포스팅에서는 두 점 사이의 거리를 구하는 여러가지 방법을 알아본다. 아무튼 그래서 거리 구하는 방법은 알고 있어야 한다. 자, 이제 두 점 사이의 거리를 찾는 함수를 작성해볼 거다. 이제부터 두 점 사이의 거리를 구하는 방법을 총 3가지 소개하려 한다. 유클리드 거리 (Euclidean Distance) 해밍 거리 (Hamming Distance) 예를 들어 아래와 같이 2차원에 있는 점... machine learningmachine learning 앙상블 (Ensemble) 이란 최종 모델의 예측 값을 결정짓는 Voting은 크게 하드 보팅 (Hard voting)과 소프트 보팅 (Soft voting)으로 나눌 수 있다. 하드 보팅은 각 weak learner들의 예측 결과값을 바탕으로 다수결 투표하는 방식이다. 따라서 다섯 개 분류기 중 빨간 공으로 예측한 분류기가 3개이니, 이 샘플에 대한 최종 예측값은 빨간 공이 된다. 반면 소프트 보팅은 weak learne... 회귀분류machine learningmachine learning [단단한 머신러닝] 4장 의사결정나무 해당 속성 집합이 0일 경우, 혹은 모든 샘플이 모든 속성에서 같은 값을 취할 경우, 더는 분할을 진행하지 않음 ... Ent(D) = -\sum_{k=1}^{|Y|}p_k~log_2p_k a가 분할을 통해 얻은 정보 이득(Information Gain)을 계산할 수 있음. 일반적으로 정보 이득이 크면 속성 a를 사용하여 분할할 때 얻을 수 있는 순도 상승도가 높아지는 것을 의미. 따라서 우... machine learningmachine learning 문자 카테고리형 데이터 처리 (Label Encoding, One-Hot Encoding) 머신러닝 알고리즘은 문자열 데이터 속성을 입력받지 않으며 모든 데이터는 숫자형으로 표현되어야 한다.따라서 문자형 카테고리형 속성은 모두 숫자 값으로 변환/인코딩 되어야 한다. scikit-learn을 사용한 변환 방식에는 대표적으로 2가지가 있다. 레이블 인코딩 (Label Encoding) 원-핫 인코딩(One-Hot Encoding) 이 두 가지의 차이점을 한눈에 살펴보면 다음과 같다. ... machine learningmachine learning 파이썬_머신러닝01(3) p-value, 카이제곱 독립성 검정 ANOVA 분산 분석 머신러닝 통계학 내용 정리... pythonmachine learningmachine learning [단단한 머신러닝] 5장 신경망 y = f(\sum_{i=1}^{n}w_ix_i - \theta) w_i(i=1,2,...,n) w_{n+1} \Delta w_i = \alpha(y-\hat y)x_i, w1 ,w2 ), 오차 y=0, w_1 =0, w_2 = 0 W_5 W5 를 기준으로 잡아보면, 전체 오차 W_5 W5 로 편미분한 값을 기존의 W_5 W_5(t+1) = W_5(t) - \frac{\partial E_to... machine learningmachine learning 파이썬_머신러닝01(2) 머신러닝과 통계학 모집단 vs. 모수와 통계량 vs. 평균, 중간값, 최빈값 분산, 표준편차, 범위, 사분위수... pythonmachine learningmachine learning 파이썬_머신러닝03 pythonmachine learningmachine learning [Machine Learning] 실습환경 구축 을 사용하면 개발자가 기존 가상 머신의 오버헤드 또는 듀얼 부팅 설정 없이 대부분의 명령줄 도구, 유틸리티 및 애플리케이션을 비롯한 GNU/Linux 환경을 수정하지 않고 Windows에서 직접 실행할 수 있습니다. 관리자 모드로 Windows 명령 프롬프트에서 아래 명령을 입력합니다. 컴퓨터를 재시작하면 WSL을 실행하는 데 필요한 모든 것이 자동으로 설치됩니다. Command 창에서 ba... 환경 구축machine learningWSLcondaWSL [Faiss] 😆 유사도 계산을 빠르고 간편히! 오늘은 유사도 및 KNN 계산을 빠르고 간편히 수행할 수 있는 패키지! 😎 "Faiss"에 대해 간단히 제가 사용한 부분을 정리하려 합니다. 제가 예전에 평소에 자주 사용하던 Softmax layer에서 최댓값을 뽑아 결괏값을 만들던 방식이 아니기 때문에, 😁 보통 일반적인 Classification Task는 softmax layer에서 값을 뽑아서, 이를 argmax를 취한 값을 결과 i... machine learningmachine learning 머신러닝 회귀 모델의 성능 평가 지표 (MAE, MSE, RMSE, R-squred) 절대값을 취하기 때문에 가장 직관적으로 알 수 있는 지표이다. 절대값을 취하기 때문에 모델이 Underperformance(실제보다 낮은 값으로 예측)인지 Overperformance(실제보다 높은 값으로 예측)인지 알 수 없다. MSE(Mean Squared Error) RMSE(Root Mean Squared Error) ➡ 만든 모델로 삼성전자 주가를 예측해보았더니, RMSE가 500,... machine learning회귀machine learning TIL_50 : 정규화 모델이 너무 간단해서 데이터의 관계를 잘 학습하지 못하는 경우 모델의 복잡도를 늘려서 training 데이터의 관계를 잘 학습 편향이 높은 머신 러닝 모델은 너무 간단해서 데이터의 관계를 잘 학습하지 못함 편향이 낮은 모델은 주어진 데이터의 관계를 아주 잘 학습함 training 데이터의 관계를 완벽하게 나타내는, 편향이 낮은 모델이 무조건 좋은 것은 아님 데이터 셋 별로 모델이 얼마나 일관... TILmachine learningTIL Machine learning with Python (5) 그런데 실제 이 perch의 무게는 훨씬 더 많이 나간다고 한다. 훈련 세트와 50cm의 perch 그리고 이 perch의 최근접 이웃을 산점도로 표시하겠다. kneighbors() 메서드를 사용하면 가장 가까운 이웃까지의 거리와 이웃 샘플의 인덱스를 얻을 수 있다. 이 산점도를 보면 길이가 커질수록 perch의 무게가 증가하는 경향이 있다. 하지만 50cm perch에서 가장 가까운 것은 ... pythonmachine learningmachine learning [DL] 손글씨 숫자 인식 이번에는 이미 학습된 매개변수를 사용하여 학습 과정을 생략하고, 추론 과정만 구현 이 추론 과정을 신경망의 순전파(forward propagation)이라고도 한다. MINIST 데이터셋은 손글씨 숫자 이미지 집합으로, 기계학습 분야세어 유명한 데이터셋이다. 훈련 이미지(train set)가 60000장, 시험 이미지(test set)은 10000장 준비되어 있다. 일반적으로 이 훈련 이미지... mnistDeep Learningmachine learningDeep Learning machine learning/기본이론, 붓꽃 데이터 품족 예측하기 구체적인 방법에 대한 프로그래밍 없이 예제를 보여줌으로써 컴퓨터가 스스로 학습할 수 있게 하는 방법 변화하는 환경에 적응해야 하는 문제 복잡한 문제와 대량의 데이터에서 통찰 얻기(데이터 마이닝) Supervided Learning(지도학습)은 명확한 정답(Label)이 주어진 훈련세트이다. 분류(Classification) 이진 분류 (binary classification) : 스팸 or ... machine learningmachine learning TIL_48 : 로지스틱 회귀 ➡ 시그모이드 함수 S(x)=\frac{1}{1+e^{-x}} ➡ 가설 함수 선형 회귀에서 썼던 아래의 가설 함수를 발전시키면 로지스틱 회귀의 가설 함수가 됨 로지스틱 회귀 가설 함수를 x = gθ (x)=θ0 x0 +θ1 x1 +θ2 x2 +...θn xn g_\theta(x)=\theta^Tx h_\theta(x)=\frac{1}{1+e^{-g_\theta(x)}} h_\theta(x)=... TILmachine learningTIL machine learning/Predict survival on the Titanic- using scikit-learn 승객의 나이, 성별, 승객 등급, 승선 위치 같은 속성을 기반으로 하여 승객의 생존 여부를 예측하는 것이 목표 두 파일을 각각 datasets 디렉토리에 titanic_train.csv titanic_test.csv로 저장 1. 데이터 적재 2. 데이터 탐색 train_data 살펴보기 Survived Pclass Age Ticket Fare Cabin Embarked Braund, Mr. ... machine learningmachine learning Cross-validation machine learning 알고리즘들 중에는 모든 문제에 적용가능한 최고의 학습 모델은 존재하지 않는다. 우리는 문제를 풀기 위해 어떤 학습 모델을 사용해야 하는가? 어떤 하이퍼파라미터를 사용해야 하는가? 이러한 문제를 고려하는 것은 모델선택(Model Selection)의 과정이다. 이러한 데이터의 크기에 대한 문제와 모델 선택에 대한 문제를 해결하기 위해 사용하는 방법 중 하나가 바로... pythonmachine learningmachine learning
2장 간단한 분류 알고리즘 훈련 b. 가중치를 업데이트(n은 학습률, y(i)는 i번째 훈련 샘플의 진짜 클래스 레이블) ☑️ 클래스 레이블을 두 개의 정수 클래스 1(verisicollor)와 -1(setosa)로 바꾼 후 벡터 y에 저장 ☑️ 100개의 훈련 샘플에서 첫 번째 특성 열(꽃받침 길이)과 세 번째 특성 열(꽃잎 길이)을 추출하여 특성 행렬 x에 저장 ☑️ 붓꽃 데이터셋에서 추출한 일부 데이터에서 퍼셉트론 알... machine learningmachine learning [머신러닝] Supervised Learning , Unsupervised Learning ( 지도 학습, 비 지도 학습 ) 지도 학습 ( Supervised Learning ) 비 지도 학습 ( Unsupervised Learning ) Predictive Learning 으로도 불리는 지도 학습은 Training set 으로 입출력의 쌍을 받습니다. 즉, input으로 들어오는 feature vector와 output으로 나가는 class 혹은 label을 Training set으로 받습니다. Training ... machine learning머신러닝지도 학습비 지도 학습machine learning 1장 컴퓨터는 데이터에서 배운다 머신러닝 : 데이터에서 지식을 효율적으로 추출하여 예측 모델과 데이터 기반의 의사 결정 성능을 향상시킴 (사람이 수동으로 대량의 데이터를 분석하여 규칙을 유도하여 모델을 만들지 ❌) 레이블된 데이터, 직접 피드백, 출력 및 미래 예측 1.2.1 지도 학습으로 미래 예측 지도 : 희망하는 출력 신호(레이블)가 있는 일련의 샘플(데이터 입력) ex) 스팸 또는 스팸이 아닌 이메일로 정확하게 표시... machine learningmachine learning 두 점 사이의 거리 공식 본 포스팅에서는 두 점 사이의 거리를 구하는 여러가지 방법을 알아본다. 아무튼 그래서 거리 구하는 방법은 알고 있어야 한다. 자, 이제 두 점 사이의 거리를 찾는 함수를 작성해볼 거다. 이제부터 두 점 사이의 거리를 구하는 방법을 총 3가지 소개하려 한다. 유클리드 거리 (Euclidean Distance) 해밍 거리 (Hamming Distance) 예를 들어 아래와 같이 2차원에 있는 점... machine learningmachine learning 앙상블 (Ensemble) 이란 최종 모델의 예측 값을 결정짓는 Voting은 크게 하드 보팅 (Hard voting)과 소프트 보팅 (Soft voting)으로 나눌 수 있다. 하드 보팅은 각 weak learner들의 예측 결과값을 바탕으로 다수결 투표하는 방식이다. 따라서 다섯 개 분류기 중 빨간 공으로 예측한 분류기가 3개이니, 이 샘플에 대한 최종 예측값은 빨간 공이 된다. 반면 소프트 보팅은 weak learne... 회귀분류machine learningmachine learning [단단한 머신러닝] 4장 의사결정나무 해당 속성 집합이 0일 경우, 혹은 모든 샘플이 모든 속성에서 같은 값을 취할 경우, 더는 분할을 진행하지 않음 ... Ent(D) = -\sum_{k=1}^{|Y|}p_k~log_2p_k a가 분할을 통해 얻은 정보 이득(Information Gain)을 계산할 수 있음. 일반적으로 정보 이득이 크면 속성 a를 사용하여 분할할 때 얻을 수 있는 순도 상승도가 높아지는 것을 의미. 따라서 우... machine learningmachine learning 문자 카테고리형 데이터 처리 (Label Encoding, One-Hot Encoding) 머신러닝 알고리즘은 문자열 데이터 속성을 입력받지 않으며 모든 데이터는 숫자형으로 표현되어야 한다.따라서 문자형 카테고리형 속성은 모두 숫자 값으로 변환/인코딩 되어야 한다. scikit-learn을 사용한 변환 방식에는 대표적으로 2가지가 있다. 레이블 인코딩 (Label Encoding) 원-핫 인코딩(One-Hot Encoding) 이 두 가지의 차이점을 한눈에 살펴보면 다음과 같다. ... machine learningmachine learning 파이썬_머신러닝01(3) p-value, 카이제곱 독립성 검정 ANOVA 분산 분석 머신러닝 통계학 내용 정리... pythonmachine learningmachine learning [단단한 머신러닝] 5장 신경망 y = f(\sum_{i=1}^{n}w_ix_i - \theta) w_i(i=1,2,...,n) w_{n+1} \Delta w_i = \alpha(y-\hat y)x_i, w1 ,w2 ), 오차 y=0, w_1 =0, w_2 = 0 W_5 W5 를 기준으로 잡아보면, 전체 오차 W_5 W5 로 편미분한 값을 기존의 W_5 W_5(t+1) = W_5(t) - \frac{\partial E_to... machine learningmachine learning 파이썬_머신러닝01(2) 머신러닝과 통계학 모집단 vs. 모수와 통계량 vs. 평균, 중간값, 최빈값 분산, 표준편차, 범위, 사분위수... pythonmachine learningmachine learning 파이썬_머신러닝03 pythonmachine learningmachine learning [Machine Learning] 실습환경 구축 을 사용하면 개발자가 기존 가상 머신의 오버헤드 또는 듀얼 부팅 설정 없이 대부분의 명령줄 도구, 유틸리티 및 애플리케이션을 비롯한 GNU/Linux 환경을 수정하지 않고 Windows에서 직접 실행할 수 있습니다. 관리자 모드로 Windows 명령 프롬프트에서 아래 명령을 입력합니다. 컴퓨터를 재시작하면 WSL을 실행하는 데 필요한 모든 것이 자동으로 설치됩니다. Command 창에서 ba... 환경 구축machine learningWSLcondaWSL [Faiss] 😆 유사도 계산을 빠르고 간편히! 오늘은 유사도 및 KNN 계산을 빠르고 간편히 수행할 수 있는 패키지! 😎 "Faiss"에 대해 간단히 제가 사용한 부분을 정리하려 합니다. 제가 예전에 평소에 자주 사용하던 Softmax layer에서 최댓값을 뽑아 결괏값을 만들던 방식이 아니기 때문에, 😁 보통 일반적인 Classification Task는 softmax layer에서 값을 뽑아서, 이를 argmax를 취한 값을 결과 i... machine learningmachine learning 머신러닝 회귀 모델의 성능 평가 지표 (MAE, MSE, RMSE, R-squred) 절대값을 취하기 때문에 가장 직관적으로 알 수 있는 지표이다. 절대값을 취하기 때문에 모델이 Underperformance(실제보다 낮은 값으로 예측)인지 Overperformance(실제보다 높은 값으로 예측)인지 알 수 없다. MSE(Mean Squared Error) RMSE(Root Mean Squared Error) ➡ 만든 모델로 삼성전자 주가를 예측해보았더니, RMSE가 500,... machine learning회귀machine learning TIL_50 : 정규화 모델이 너무 간단해서 데이터의 관계를 잘 학습하지 못하는 경우 모델의 복잡도를 늘려서 training 데이터의 관계를 잘 학습 편향이 높은 머신 러닝 모델은 너무 간단해서 데이터의 관계를 잘 학습하지 못함 편향이 낮은 모델은 주어진 데이터의 관계를 아주 잘 학습함 training 데이터의 관계를 완벽하게 나타내는, 편향이 낮은 모델이 무조건 좋은 것은 아님 데이터 셋 별로 모델이 얼마나 일관... TILmachine learningTIL Machine learning with Python (5) 그런데 실제 이 perch의 무게는 훨씬 더 많이 나간다고 한다. 훈련 세트와 50cm의 perch 그리고 이 perch의 최근접 이웃을 산점도로 표시하겠다. kneighbors() 메서드를 사용하면 가장 가까운 이웃까지의 거리와 이웃 샘플의 인덱스를 얻을 수 있다. 이 산점도를 보면 길이가 커질수록 perch의 무게가 증가하는 경향이 있다. 하지만 50cm perch에서 가장 가까운 것은 ... pythonmachine learningmachine learning [DL] 손글씨 숫자 인식 이번에는 이미 학습된 매개변수를 사용하여 학습 과정을 생략하고, 추론 과정만 구현 이 추론 과정을 신경망의 순전파(forward propagation)이라고도 한다. MINIST 데이터셋은 손글씨 숫자 이미지 집합으로, 기계학습 분야세어 유명한 데이터셋이다. 훈련 이미지(train set)가 60000장, 시험 이미지(test set)은 10000장 준비되어 있다. 일반적으로 이 훈련 이미지... mnistDeep Learningmachine learningDeep Learning machine learning/기본이론, 붓꽃 데이터 품족 예측하기 구체적인 방법에 대한 프로그래밍 없이 예제를 보여줌으로써 컴퓨터가 스스로 학습할 수 있게 하는 방법 변화하는 환경에 적응해야 하는 문제 복잡한 문제와 대량의 데이터에서 통찰 얻기(데이터 마이닝) Supervided Learning(지도학습)은 명확한 정답(Label)이 주어진 훈련세트이다. 분류(Classification) 이진 분류 (binary classification) : 스팸 or ... machine learningmachine learning TIL_48 : 로지스틱 회귀 ➡ 시그모이드 함수 S(x)=\frac{1}{1+e^{-x}} ➡ 가설 함수 선형 회귀에서 썼던 아래의 가설 함수를 발전시키면 로지스틱 회귀의 가설 함수가 됨 로지스틱 회귀 가설 함수를 x = gθ (x)=θ0 x0 +θ1 x1 +θ2 x2 +...θn xn g_\theta(x)=\theta^Tx h_\theta(x)=\frac{1}{1+e^{-g_\theta(x)}} h_\theta(x)=... TILmachine learningTIL machine learning/Predict survival on the Titanic- using scikit-learn 승객의 나이, 성별, 승객 등급, 승선 위치 같은 속성을 기반으로 하여 승객의 생존 여부를 예측하는 것이 목표 두 파일을 각각 datasets 디렉토리에 titanic_train.csv titanic_test.csv로 저장 1. 데이터 적재 2. 데이터 탐색 train_data 살펴보기 Survived Pclass Age Ticket Fare Cabin Embarked Braund, Mr. ... machine learningmachine learning Cross-validation machine learning 알고리즘들 중에는 모든 문제에 적용가능한 최고의 학습 모델은 존재하지 않는다. 우리는 문제를 풀기 위해 어떤 학습 모델을 사용해야 하는가? 어떤 하이퍼파라미터를 사용해야 하는가? 이러한 문제를 고려하는 것은 모델선택(Model Selection)의 과정이다. 이러한 데이터의 크기에 대한 문제와 모델 선택에 대한 문제를 해결하기 위해 사용하는 방법 중 하나가 바로... pythonmachine learningmachine learning